Wang Haihua
🍈 🍉🍊 🍋 🍌
在实际工作中,变量聚类法的应用也是十分重要的。在系统分析或评估过程中,为避免遗漏某些重要因素,往往在一开始选取指标时,尽可能多地考虑所有的相关因素。而这样做的结果,则是变量过多,变量间的相关度高,给系统分析与建模带来很大的不 便。因此,人们常常希望能研究变量间的相似关系,按照变量的相似关系把它们聚合成若干类,进而找出影响系统的主要因素。
在对变量进行聚类分析时,首先要确定变量的相似性度量,常用的变量相似性度量有两种。
1)相关系数
记变量$x_{j}$ 的取值 $\left(x_{1 j}, x_{2 j}, \cdots, x_{n j}\right)^{T} \in R^{n}(j=1,2, \cdots, m)$则可以用两变量$x_j$与$x_k$的样本相关系数作为它们的相似性度量
$$ r_{j k}=\frac{\sum_{i=1}^{n}\left(x_{i j}-\bar{x}_{j}\right)\left(x_{i k}-\bar{x}_{k}\right)}{\left[\sum_{i=1}^{n}\left(x_{i j}-\bar{x}_{j}\right)^{2} \sum_{i=1}^{n}\left(x_{i k}-\bar{x}_{k}\right)^{2}\right]^{\frac{1}{2}}} $$在对变量进行聚类分析时,利用相关系数矩阵是最多的。
2)夹角余弦 也可以直接利用两变量$x_j$与$x_k$的夹角余弦$r_{jk}$ 来定义它们的相似性度量,有 $$ r_{j k}=\frac{\sum_{i=1}^{n} x_{i j} x_{i k}}{\left(\sum_{i=1}^{n} x_{i j}^{2} \sum_{i=1}^{n} x_{i k}^{2}\right)^{\frac{1}{2}}} $$
各种定义的相似度量均应具有以下两个性质: $$ \begin{array}{l}\text { a) }\left|r_{j k}\right| \leq 1, \text { 对于一切 } j, k \text { ; } \\ \text { b) } r_{j k}=r_{k j}, \text { 对于一切 } j, k \text { 。 }\end{array} $$
$\left|r_{j k}\right|$越接近1,$x_j$与$x_k$越相关或越相似。$\left|r_{j k}\right|$越接近零, $x_j$与$x_k$的相似性越弱。
类似于样本集合聚类分析中最常用的最短距离法、最长距离法等,变量聚类法采用了与系统聚类法相同的思路和过程。在变量聚类问题中,常用的有最大系数法、最小系数法等。
1)最大系数法
在最大系数法中,定义两类变量的距离为 $$ R\left(G_{1}, G_{2}\right)=\max _{x_{j} \in G_{1} \atop x_{k} \in G_{2}}\left\{r_{j k}\right\} $$ 这时,$R\left(G_{1}, G_{2}\right)$等于两类中最相似的两变量间的相似性度量值。
2)最小系数法
在最小系数法中,定义两类变量的距离为 $$ R\left(G_{1}, G_{2}\right)=\min _{x_{j} \in G_{1} \atop x_{k} \in G_{2}}\left\{r_{j k}\right\} $$ 这时,$R\left(G_{1}, G_{2}\right)$等于两类中相似性最小的两变量间的相似性度量值。
例如
在服装标准制定中,对某地成年女子的各部位尺寸进行了统计,通过14个部位的测量资料,获得各因素之间的相关系数表
其中 $x_1$ − 上体长,$x_2$ − 手臂长,$x_3$ − 胸围,$x_4$ − 颈围,$x_5$ − 总肩围,$x_6$ − 总胸宽,$x_7$ − 后背宽,$x_8$ − 前腰节高,$x_9$ −后腰节高,$x_{10}$ −总体长,$x_{11}$ − 身高,$x_{12}$ −下体长,$x_{13}$ − 腰围, $x_{14}$ −臀围。用最大系数法对这14个变量进行系统聚类,分类结果如图下。 可以看出,人体的变量大体可以分为两类:一类反映人高、矮的变量,如上体长,手臂长,前腰节高,后腰节高,总体长,身高,下体长;另一类是反映人体胖瘦的变量,如胸围,颈围,总肩围,总胸宽,后背宽,腰围,臀围。
参考资料